技術トピック (Technical Topics)

①高齢者(Elderly Japanese Speech)

年代層別音声特性

本データベースでは、高齢話者100名の音声を対象として、基本周波数（F0）特性および代表的な音声認識モデル（OpenAI Whisper Medium）による認識性能評価を実施しました。

上図は年齢層別の基本周波数（F0）特性を示し、下図は各話者の発話データに対する音声認識性能（WER）の年齢層別傾向を示しています。

年齢層に応じた音声特性の傾向が確認される一方で、明瞭発話条件下においては認識性能は大きく劣化しないことが示されています。

※ 音声認識評価：Whisper Medium
※ 発話内容：ATR503音素バランス文
※ F0：発話単位中央値（±1σ帯表示）

②子供日本語(Japanese Child Speech)

子供日本語音声データベースを用い、学年・年齢ごとの基本周波数（F0）の変化傾向を分析しました。児童音声における発声発達の特徴を確認できます。

※ F0：発話単位中央値
※ Whisper Medium による評価音声を使用
※ 平均値および±1σ帯を表示

③子供中国語(Chinese Child Speech)

子供中国語音声データベースを用い、年齢層および性別による基本周波数（F0）の分布傾向を分析しました。日本語児童音声との比較研究にも利用可能です。

※ 評価モデル：Whisper Medium
※ 評価用音声セット：1,720発話（製品データの一部より構成）
※ F0：発話単位中央値（平均値および±1σ帯表示）

年齢層別音声データラインナップ
(Age-Related Speech Characteristics)

高齢者音声データベース
子供日本語音声データベース
子供中国語音声データベース

①高齢者(Elderly Japanese Speech)

②子供日本語(Japanese Child Speech)

③子供中国語(Chinese Child Speech)

年齢層別音声データラインナップ(Age-Related Speech Characteristics)

年齢層別音声データラインナップ
(Age-Related Speech Characteristics)